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一 种 综合 事件 本 体 相似 度 计算 方法 
朱文 跃 ， 刘 ” 炜 ， 刘 宗 田 
(上 海 大 学 计算 机 工程 与 科学 学 院 ， 上 海 200444) 


摘 要 : 事件 本 体 相 比 于 传统 本 体 具有 更 加 丰富 的 语义 信息 ， 在 面向 事件 的 大 数据 集成 中 更 具 优势 ， 然 而 用 传统 的 本 
体 相 似 计 算 方法 计算 事件 本 体 相 似 度 存在 很 多 不 足 ， 提 出 了 一 种 综合 的 事件 本 体 相 似 度 计 算 方法 。 该 方法 以 词语 相似 
度 、 集 合 相似 度 、 层 次 结构 相似 计算 为 基础 ， 然 后 从 事件 类 名 称 、 事 件 类 要 素 、 事 件 类 层次 结构 和 非 层 次 结构 讨论 事 
件 本 体 的 相似 度 ， 最 终 获 得 事件 本 体 的 综合 相似 度 。 实 验 表 明 该 方法 相 比 传统 本 体 相 似 度 计算 方法 准确 率 更 高 ， 语 义 
信息 更 加 丰富 。 
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Comprehensive approach for event ontology similarity computation 


Zhu Wenyue, Liu Wei, Liu Zongtian 
(School of Computer Engineering & Science, Shanghai University, Shanghai 200444, China) 


Abstract: Event ontology had more rich semantic information than traditional ontology, and had more advantages in event- 
oriented big data integration. There were many deficiencies in calculating the similarity of event ontology using traditional 


ontology similarity computation methods. So a comprehensive approach for calculating similarity of event ontology was 


proposed. This approach was based on words similarity computation, set similarity computation and hierarchical similarity 
computation, then, discussed event ontology similarity from the event class name, event class elements, event class hierarchy 
and event class non-hierarchy structure, finally got the comprehensive similarity of event ontology. Experimental results show 
that this approach is more accurate than the traditional ontology similarity computation approach and its semantic information 


is more abundant. 
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件 本 体 是 一 种 以 事件 类 为 基本 单元 的 知识 表示 模型 ， 相 比 于 传 

统 的 以 “概念 ”为 核心 的 本 体 ， 它 可 以 描述 包含 事件 动作 、 时 
本 体 相 似 度 计 算是 本 体 映 射 、 本 体 集 成 、 本 体 合 并 和 本 体 。 间 、 对 象 、 地 点 等 要 素 的 完整 事件 信息 ， 可 以 保留 更 加 丰富 的 
翻译 等 技术 的 基础 (4, 近年 来 本 体 相似 度 计算 成 为 国内 外 知识 语义 内 涵 ， 更 符合 人 类 认 知 规律 的 知识 00。 因 此 ， 以 事件 为 知 
计算 领域 (如 本 体 对 齐 、 数 据 集 成 ) 的 研究 热点 。 现 有 本 体 相 。 ” 识 表示 单元 的 事件 本 体 模型 近年 来 受到 学 术 界 的 广泛 关注 2， 
似 度 计算 方法 主要 分 为 基于 元 素 的 是、 基于 结构 的 四、 基于 实例 事件 本 体 的 应 用 也 逐步 被 研究 人 员 所 重视 [3 由。 利用 事件 本 体 
的 加 和 基于 多 策略 集成 的 [5 3 几 个 部 分 。Abdul- Ghafour 等 人 四 实现 叙 寻 数据 的 语义 集成 是 事件 本 体 的 一 个 重要 应 用 方 
提出 基于 概念 层次 结构 以 及 概念 的 属性 进行 语义 相似 度 计算 。 向 ， 如 利用 事件 本 体 将 地 震 类 新 闻 数 据 和 台风 灾害 类 新 闻 数 据 
近年 来 ， 随 着 基于 自然 语言 的 网 络 数据 急剧 增长 ， 其 数据 类 型 ”集成 到 自然 灾害 数据 集中 。 基 于 事件 本 体 的 数据 集成 首先 要 解 
多 以 叙事 文本 形式 存在 ， 利 用 传统 本 体 对 这 类 数据 进行 语义 处 ” 决 事 件 本 体 的 映射 问题 ， 即 事件 类 与 事件 类 之 间 的 相似 度 计 算 
理 〈 如 语义 集成 ) 存在 很 多 不 足 t9， 利 用 传统 本 体 很 难 刻 画 一 ”问题 。 然 而 传统 本 体 相 似 计 算 只 是 将 事件 类 作为 一 类 特殊 的 概 
事件 的 完整 信息 《如 什么 时 候 、 什 么 地 点 、 发 生 可 什么 事 ， 念 来 处 理 , 存在 很 多 问题 : a) 概 念 离散 问题 , 没有 把 事件 类 和 习 


个 
有 哪些 对 象 参加 , 事件 发 生 的 前 后 状态 又 是 哪些 影响 )。 然而 事 ”” 件 类 的 参与 者 、 时 间 、 地 点 作为 一 个 有 机 的 整体 来 考虑 ;，b) 传 
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本 文 基 于 前 期 对 
度 从 事件 类 名 称 、 事 件 类 要 素 、 事 件 类 的 
构 四 个 方面 考虑 。 事 件 类 名 称 相似 然后 形成 一 个 综合 的 
体 相 似 度 计 算 模 型 。 


似 度 和 语义 相似 度 ， 语 义 相 似 度 计算 借助 于 《 知 网 》i 
该 模型 不 仅 考虑 导 
件 类 各 个 要 素 之 间 的 相似 度 ， 还 考虑 到 构建 事件 本 体 时 层次 结 
息 ， 相 比 于 传统 基于 概念 的 本 体 相 


度 来 计算 nal 


准确 度 更 高 。 


以 度 时 外 
的 相似 度 计算 研究 很 少 ， 
“事件 ”的 本 体 相似 度 计算 方法 。 
传统 的 基于 概念 的 本 体 相似 度 计算 更 加 严谨 准 
概念 名 称 与 概念 之 间 的 
事件 类 的 参与 者 、 时 间 、 世 
算 ， 除 了 考虑 到 
事件 类 之 间 的 非 


考虑 到 时 间 、 
型 对 事件 类 有 清晰 的 


间 的 关系 ; 0) 传 统 本 体 是 基于 静态 “概念 ”的 , 很 难 刻画 事件 的 
状态 等 因素 的 影响 ; 


和 述 ( 如 语言 表现 、 


搭配 ), 这 


LE 往 都 是 


有 其 实 包 含 了 丰富 的 语义 信息 ， 
忽略 这 些 重要 信息 的 。 然 而 目 


基于 事件 本 体 相似 度 计 算 上 


确 ， 传 统 的 本 体 


事件 类 与 习 
层次 关系 [1， 


层次 关系 3， 而 
点 等 要 素 作 为 一 
牛 类 之 间 的 层次 
不 仅 如 此 ， 对 


机 


个 事件 类 的 语言 描述 
事件 类 之 间 的 语义 关系 。 
事件 本 体 模 型 的 研究 541， 事件 本 体 的 相似 


也 吉 括 进 了 相似 度 计算 , 准确 度 更 高 ， 


构 和 非 层次 结构 等 信 


层次 结构 和 非 层次 结 
拖 件 本 


山 几 


其 中 事件 类 名 称 相 似 度 包含 名 称 的 语法 相 


有 件 类 名 称 之 间 的 i 


吾 义 相似 
吾 义 信息 恩 ， 事 


1 事件 本 体 相关 概念 


根据 Studder 等 
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Fe 业 
bz 


事件 类 EC(event class) 通 常 只 
难 表 达 出 事件 的 本 质 ， 


以 计算 


等 人 09 给 出 的 定义 ,“ 本 体 是 共享 概念 模型 的 
有 确 的 形式 化 规范 说 明 ”, 本 体 的 核心 是 概念 与 概念 之 间 的 关系 。 
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以 及 事件 和 事 


定义 1 事件 
角色 参与 的 ， 表 现 上 


牛 本 体 是 在 传统 本 体 基 础 ] 
。 在 事件 不 仅 包含 对 象 、 
状态 断言 、 


LH 


时 间 、 


H 一 些 动作 特 生 


中 的 对 象 、 时 间 、 地 点 、 


是 被 作为 一 类 特殊 的 概念 来 处 理 ， 
# 述 事件 
上 增加 了 对 事件 类 及 其 关系 的 
地 点 、 动 作 等 相关 知识 ， 而 
语言 表现 等 动态 特征 。 因 此 以 “ 
心 的 本 体 ， 可 以 很 好 地 表达 事件 
牛 的 一 
事件 及 事件 类 的 定义 
(event)。 某 个 特定 时 间 地 点 下 发 生 的 ， 
E 的 一 


类 之 间 的 复杂 关系 。 


省 述 


事件 ”为 中 
动作 


件 事 情 。 形 式 上 用 


表示 事件 ， 事 件 


素 组 成 ， 可 


和 


其 中 : 4 表示 动作 , 在 文本 
恐怖 分 子 在 叙利亚 被 炸 死 中 的 “ 炸 死 ”; 
参与 事件 的 所 有 对 象 ， 上 i 
述 例子 中 的 “11 月 


时 间 ， 上 


六 要 


e::=< A,O,T.,P,S,L> 


26 日 ”; 


对 应 触发 词 , 如 “11 月 


述 例子 中 的 “13 名 恐怖 分 子 ”; 


以 用 六 元 组 来 表示 口 : 


(1) 


26 日 13 名 
0 表示 对 象 集合 , 表示 
7 表示 


已 表示 地 点 ， 上 述 例子 中 


,aiv 全 作 期 二 
录用 稿 朱文 跃 ， 等 : GA 
统 本 体 相 似 度 计算 过 程 中 ， 概 念 是 单一 的 ， 只 考虑 了 “概念 ” 的 “叙利亚 ”"; 5 表示 状态 集合 ， 上述 例子 中 “恐怖 分 子 死 了 ”; 工 
层次 结构 来 计算 相似 度 ， 没 有 考虑 到 该 事件 类 和 其 他 事件 类 之 是 语言 表现 ， 主 要 包括 核心 词 集合 和 核心 词 搭 配 等 。 


定义 2 事件 类 (event class)。 共同 特征 锯 
EC 来 表示 定义 如 


EC={E,C,C,,C;,C,,C,,C,)} 


E={e,e,,...6,, }(m > 0) 


C ={fcc cn (ie{A,0,T.,P,S,L},n>0) (2) 


其 中 : EE 表示 事件 的 集合 , 称 之 为 事件 类 的 外 延 ; 
每 个 事件 在 第 i 个 要 素 上 具有 的 共同 特征 集合 ， 
内 涵 ; GC; 表示 EE 中 每 个 事件 在 第 i 个 要 素 上 具有 
性 。 


C; 表示 互 中 
你 为 事件 类 的 


的 一 个 共同 属 


只 三 可 


OWL(Web ontology language) 语 言 是 W3C 推荐 的 语义 本 体 
者 述 语言 ， 用 OWL 对 事件 (类 ) 要 素 进行 扩展 , 将 事件 与 事件 要 
素 之 间 的 关系 作为 ObjectProperty 对 象 属性 来 构建 ， 如 表 1 所 
示 。 在 OWL 中 事件 (类 ) 与 事件 (类 ) 要 素 之 间 的 关系 。 如 图 1 所 


I 


表 1 扩展 的 OWL 中 事件 
Object 


与 事件 要 素 之 间 的 关系 


Status 


要 素 名 Time Place Action Language 


Has At At Has Has Has 


关系 名 


Object Time Palce Action Status Language 


1.2 事件 关系 和 事件 本 体 结构 

定义 3 事件 类 层次 关系 (hierarchy of event class) [13] 
EC ={ 五 ,CQGoCr CrCs,Cr 和 事件 类 EC,={E,C， 
CoCrCop CC EC 和 EC, 存在 分 类 关系 ， 当 且 仅 当 
( 互 C 轧 或 者 包 = 包 和 且 GjcC; (je{A,O,T,V,P,L} )) EC 
称 为 £C, 的 下 位 事件 ，EC, 称 为 EC 的 上 位 事件 。 用 R, (EC ， 
EC,) 表 示 , 如 “地 震 ”" 和 “交通 事故 ”是 “ 突 发 事件 ”的 下 位 事件 类 。 

可 以 表 为 R,, (地 震 ， 突 发 事件 )，R, (交通 事故 ， 突 发 事件 ) 


eo:Event name 
eo:hasObject 


eo:hasLanguage 


图 1 OWL 中 一 


个 事件 的 表示 


事 件 


定义 4 
即 : 


类 非 层次 关系 (non-hierarchy of event class)" 2 ， 


a) 组 成 关系 。 事件 类 EC 是 由 事件 类 EC, 组 成 时 , 称 两 个 事 
件 类 有 组 成 关系 , 如 “做 饭 ” 由 “ 洗 菜 ” 和 “ 京 饪 "组成, 可 以 表示 为 
Riposeaor (做 饭 ， 洗 菜 )、 Rnposedor (做 饭 ， Rs 烹饪 )。 
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b) 因 果 关 系 。 事 件 类 EC 的 发 生 以 一 定 的 概率 导致 事件 
EC 的 发 生 。 此 时 概率 大 于 某 个 值 时 ， 称 为 两 个 事件 类 有 因 
关系 ， 如 “ 仙 怖 袭击 ”导致 “平民 伤亡 ”， Rowse (恐怖 袭击 ， 平 民 
Es 


于 酒 冰 


oc) 跟随 关系 。 在 一 定时 间 范 围 内 , 事件 类 EC 的 发 生 , 以 一 
定 的 概率 跟随 着 事件 类 EC; 的 发 生 , 此 时 概率 大 于 某 个 阔 值 时 ， 
称 为 两 个 事件 类 有 具有 跟随 关系 ， 如 “闪电 ”跟随 着 “打雷 ”"， 可 以 
表示 为 Rwow (闪电 ， 打 雷 )。 

d) 并 发 关系 。 在 一 定时 间 范 围 内 ， 事 件 类 EC 的 发 生 ， 导 
件 类 EC, 以 一 定 的 概率 同时 发 生 ， 概 率 大 于 某 个 值 时 ， 称 为 两 
个 事件 类 具 发 关系 ， 如 “ 刊 风 ”和 “下 雨 ” 可 以 表示 为 Rowew 
( 刮 风 ， 下 两 )。 

定义 5 事件 本 体 (event ontology) 事件 本 体 EO 是 共享 客 
观 存在 的 事件 类 模型 001。 其 逻辑 结构 可 定义 为 一 个 四 元 组 :EO 
=<UECS, ECS, R, Rules , Individuals > ,其 中 :a) UECS 


pil 


< 


来 计算 两 个 字符 串 的 相似 度 。 两 个 字符 串 的 相似 度 定义 为 


Simsws(A,B) = max(0， min( AL|BD -ed(A,B) 
min( A||BD 


G3) 


其 中 : |A|、|B| 分 别 是 字符 串 A 、B 的 长 度 ，min (|A|，|B|) 表 示 
是 A 与 B 中 较 短 的 字符 串 长 度 ，ed(A,B) 表示 将 A 转化 为 B 所 
需 的 最 小 操作 数 〈 包 括 插 入 、 删 除 、 蔡 换 等 )。 


2.1.2 语义 相似 度 计 算 

知 网 》(HowNet) 作 为 语义 资源 基础 ， 揭 示 概 念 和 概念 以 
及 概念 和 概念 所 具有 的 属性 之 间 的 关系 。 因 此 可 以 将 “事件 ” 转 
换 为 “概念 ”进行 相似 度 来 计算 。 基 于 《 知 网 》 的 词汇 语义 相似 
度 计 算 作 出 了 详细 的 阐述 09。 


全 


1) 义 原 的 相似 度 计算 


知 网 中 的 概念 是 通过 义 原来 描述 的 ， 义 原 是 描述 概念 的 最 


顶层 事件 分 类 (Upper Event Class) 集 合 ; b) ECS 是 事件 类 的 集合 
ECS ={ EC ,EC,, ... EC, }; c) R={r|r 是 事件 (类 ) 和 事件 (类 ) 
之 间 的 关系 ，r E (Rs， Rses Reompoeaor ; Ravew, Rj ))}; 
d) Rules 是 用 风 辑 语言 表示 的 规则 集合 , 包括 事件 类 分 类 关系 推 
时 规则 和 事件 关系 推理 规则 ; e) Individuals 事件 实例 集合 。 事 
件 本 体 模型 结构 如 图 2 所 示 。 上 层 事 件 类 是 通用 的 分 类 结构 ， 
下 层 事 件 类 是 通过 事件 关系 构成 的 事件 类 格 结构 。 


2 事件 本 体 相似 度 计算 方法 


事件 本 体 相似 度 计算 主要 分 为 三 个 部 分 介绍 :第 一 部 分 ， 
介绍 词语 的 语法 和 语义 相似 度 、 和 集合 的 相似 度 、 词 语序 列 相似 
度 和 层次 结构 相似 度 ， 第 二 部 分 ， 根 据 上 述 相 似 度 计算 方法 ， 
对 事件 类 名 称 、 事 件 类 要 素 、 事 件 类 层次 结构 和 事件 类 非 层 次 
结构 分 别 进行 相似 度 计 算 ， 第 三 部 分 ， 将 上 述 四 个 方面 的 相似 
度 一 起 考虑 进来 进行 综合 相似 度 计算 。 


Nhl 


下 下 一 一 一 一 一 个 一 一 


follow 


composedOf 


causal 


1 
1 
1 
1 
1 
1 
人 | 
1 
1 
1 
1 


| Nontaxonomic | 
L_ relations__/! 


图 2 事件 本 体 模型 结构 


2.1 相似 度 计算 相关 概念 
2.1.1 语法 相似 度 计算 

对 事件 类 名 称 计算 方法 有 很 多 ， 如 Levenshtein、N-gram、 
Humming Distance 等 方法 。 本 文采 用 Levenshtein 编辑 距离 (17 


小 单位 。 两 个 义 原 节点 之 间 的 语义 距离 为 Sim(pi,p;) 计算 公式 
如 下 : 
Sim(pi,ps) =— (4) 
d+a 
其 中 : Pp, 、 Pp; 表示 两 个 义 原 ; d 表示 P|、 PP, 义 原 在 层次 体系 


中 的 路 径 长 度 : & 是 一 个 调节 因子 。 


2) 概念 的 相似 度 计算 
sim(S,5») = PBSim (S15,) (5) 


其 中 : LUsis4 是 调节 参数 ， 并 且 B+BB+B+pP,=1， 
B=>> 访 >; Sim(S1,S,) 表示 第 一 义 原 描述 ，Sim(Si,S,) 
表示 其 他 基本 义 原 描 述 ， Sims(Si,S2) 表示 义 原 关 系 描述 ， 
Sim(S1i,Ss) 表 久 示 关 系 符号 描述 。 


3) 词语 相似 度 计算 


对 于 两 个 汉语 词语 WW 和 Ww， 假设 在 知 网 中 Wi 有 7 个 义 项 
(概念 )D SSpSwm， 了 及 有 普 个 义 项 ， 词 语 见 和 词语 防 的 
相似 度 是 其 各 个 义 项 相似 度 的 最 大 值 。 


SO Wo) ee ASI Si (0 


2.1.3 集合 相似 度 计算 
假设 有 集合 Set 和 集合 Set, ， 则 集合 的 相似 度 为 


t=min(|set, |,|set, |) 


VY SimCW,, Ws) 0) 


Sim(Seti, Set,)= 时 
1 


其 中 : | Sen | 和 | Set, | 分 别 表示 Set 和 Sets 中 元 素 的 个 数 ， 
min(|set ||setz|) 表示 | Set | 和 | Seb | 中 较 小 的 一 个 值 ; 
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Sim(Wi;,W,) 的 计算 如 下 。 将 集合 Seti 中 所 有 元 素 和 Set, 中 的 
所 有 元 素 进行 相似 度 计算 得 到 的 最 大 值 作 为 Sim(Wi,W,)， 将 
计算 得 到 最 大 值 对 应 的 元 素 分 别 从 Set 和 Se 中 删除 ， 把 Sen 
剩余 的 元 素 看 做 新 的 Sen ， se 剩余 的 元 素 看 做 新 的 Set, ， 将 
新 的 集合 sea 中 所 有 元 素 和 新 的 集合 Sets 中 的 所 有 元 素 进 行 相 
似 度 计 算得 到 的 最 大 值 作为 Sim(W, W,,) 。 重 复 上 述 步 又 得 到 
Sim(Wa, Wa) ...， 直 到 Set 或 者 Sets 没有 元 素 为 止 。 


We 


2.1.4 词语 序列 似 度 计 算 

对 于 事件 类 来 说 可 能 是 用 词语 来 描述 的 ， 如“ 地震 ” 也 可 
能 是 短 句 描述 的 ， 如 “交通 事故 事件 ” 因此 需要 对 短 句 进行 相 
似 度 计 算 。 对 短 句 进行 相似 度 计算 时 ， 首 先 将 短 句 进行 分 词 保 
留 实 词 部 分 ， 得 到 一 个 词语 序列 。 假 设 两 个 短 名 得 到 的 词语 序 
列 分 别 为 Seg = (Wi Wo Wi,) 和 Seq ={W2 WoW ， 则 
词语 序列 的 相似 度 计 算 可 以 看 做 两 个 词语 的 集合 , 然后 用 式 (7) 
进行 计算 。 


2.1.5 层次 结构 相似 度 计算 

事件 本 体 中 ， 无 论 是 事件 要 素 或 者 事件 类 都 
结构 ， 因 此 ， 在 这 里 给 出 层次 结构 相似 度 计 算 方法 。 层 次 
相似 度 算法 很 多 ， 如 Resnik 算法 09, 定义 两 个 节点 的 相似 
其 最 低 共同 祖先 节点 的 信息 量 。 文 献 [20] 在 最 低 共 同 祖 先 
的 基础 上 增加 了 共享 路 径 的 层次 结构 相似 度 计算 。 下 面 介 
文 的 层次 结构 相似 度 计算 算 法 。 节 点 深度 是 指 节 点 在 层次 
中 所 处 的 层 数 , 用 depth(N) 表示 节点 N 的 深度 , 根 节点 深度 大 
1。 层 次 结构 相似 度 从 下 面 三 个 方面 来 考虑 : 


坊 注 划 池 游 了 到 


中 


a) 两 个 节点 深度 总 和 ， 即 depth(N。)+ depth(Ns); 在 路 径 距 
离 相 同情 况 下 ， 节 点 深度 总 和 越 大 ， 相 似 度 也 越 大 。 


b) 两 个 节点 的 最 近 公共 父 节 点 深度 depth(Np(N。， Ns))， 
其 中 ，NpON,Ns) 表示 节点 Na 和 Ns 的 最 近 公 共 父 节点 ， 最 近 
公共 父 节 点 越 深 , 它 的 分 类 就 越 细 致 ,继承 的 信息 量 也 就 越 多 ， 
则 相似 度 越 大 。 


0) 两 个 节点 的 相对 深度 ， 即 两 个 节点 深度 绝对 值 之 差 
|depth(N,)-depth(Ns)| ;S51,5»%,…Sz 相对 深度 越 小 层次 差异 越 
小 ， 相 似 度 越 大 。 基 于 上 述 思 想 定 义 两 个 节点 的 相似 度 : 


Sim,cwe(Na— Ng)=00+0P+O4 (8) 


max depth 


_ 2x depth(N, (N,N,)) 
max depth+ | depth(N, ) — depth(N,) | 


depth(N, ) + depth(N;) 


max depth 


深度 ，9 、、 纺 为 权 值 9+ 久 + 久 =1。 本 文 层次 结构 相似 
度 计算 过 程 中 ， 权 值 96 为 0.4、 久 为 0.3、 久 为 0.3。 


Bp ， max depth 表示 事件 本 体 层 次 结构 的 最 大 


2.2 事件 名 称 相似 度 计算 
事件 类 名 称 相似 度 计算 ， 需 要 从 语法 和 语义 两 个 方面 来 考 


朱文 跃 ， 等 : 一 种 综合 事件 本 体 Es 


处。 假设 两 个 事件 类 名 称 分 别 为 namel、name2, 事件 类 名 称 语 
法 相似 度 Sim,j(namel,name2) 可 以 用 式 (3) 来 计算 。 


事件 类 名 称 语义 相似 度 Simwwowic tnamel,name2) 计算 时 ,如 


果 两 个 事件 类 都 是 词语 ， 可 以 用 词语 相似 度 计 算 ， 见 式 (6)。 如 
果 两 个 事件 类 中 有 短 句 ， 如 “醉酒 驾驶 ” 先 对 短 句 进行 分 词 保留 
实 词 ， 得 到 一 个 词语 序列 ， 然 后 通过 词语 序列 相似 度 计算 来 求 
得 事件 类 名 称 的 语义 相似 度 ， 最 后 结合 语法 相似 度 和 语义 相似 


出 事件 类 名 称 综合 相似 度 Sim(namel,name2) 。 


全 


Sim(namel, name 2) =0.3xSim,, (namel, name 2)+ 
0.7 xSim,,me (namel, name 2)) (9) 


2.3 ”事件 类 要 素 相似 度 计算 
事件 类 和 事件 一 样 都 是 由 六 个 要 素 构 成 ， 事 件 类 的 状态 要 
素描 述 的 是 事件 发 生 的 状态 变化 。 和 暂时 不 考虑 状态 要 素 。 在 事 
件 类 六 要 素 中 ， 每 个 要 素 都 有 其 独特 的 特征 。 因 此 计算 事件 类 
要 素 相 似 度 需 要 分 开 考 虑 。 


2.3.1 事件 类 动作 要 素 相 似 度 计 算 
事件 类 中 的 动作 要 素 是 事件 类 的 触发 词 〈 指 示 词 ) 029， 见 
表 2。 一 般 认 为 只 要 触发 词 属 于 同一 事件 类 型 ， 动 作 要 素 就 相 
似 度 为 1， 如 地 震 、 余 震 和 震感 等 动作 要 素 相似 度 都 为 1。 如 果 
不 是 属于 同一 事件 类 的 触发 词 ， 则 将 触发 词 看 做 词语 ， 每 个 事 
件 类 的 触发 词 构成 词语 集合 , 采用 式 (7) 来 计算 两 个 事件 类 的 动 
作 要 素 相似 度 。 


表 2 事件 类 的 触发 词 


事件 类 型 触发 词 事件 类 型 触发 词 

地 入 地 震 、 人 余震、 震感 ... 食物 中 毒 ”中毒 、 呕 吐 、 恶 心 … 
交通 事故 追尾 、 撞 车 … 火灾 着 火 、 燃 烧 … 
损失 倒塌、 烧毁 、 损 坏 .… ”伤亡 死亡、 丧生 、 受 伤 … 


2.3.2 事件 类 时 间 要 素 相 似 度 计 算 

时 间 要 素 相 似 度 计算 可 以 借助 于 传统 的 时 间 本 体 (time 
onotology) 计算 其 相似 度 ， 也 可 以 根据 需求 构建 层次 结构 进行 
相似 度 计算 。 本 文 借助 传统 时 间 本 体 记 2， 通过 对 时 间 的 描述 
匹配 判断 两 个 事件 类 时 间 要 素 是 否 相似 ， 如 图 3 所 示 。 例 如 ， 
历史 事件 类 ， 一 般 表 述 为 公元 某 年 发 生 了 某 事件 ， 是 以 时 间 方 
向 来 描述 的 。 然 而 新 闻 报 道 类 事件 ， 一 般 表 述 为 北京 时 间 几 点 
几 分 发 生 了 某 事件 ， 以 时 区 /标准 时 间 来 报道 。 如 果 两 个 事件 类 
都 有 相同 的 时 间 格 式 ， 则 认为 相似 ， 否 则 认为 不 相似 。 对 于 一 
般 事件 类 不 存在 时 间 要 素 的 话 ， 就 不 必 考 虑 时 间 要 素 相似 度 。 


2.3.3 事件 类 地 点 要 素 相 似 度 计算 
事件 类 的 地 点 要 素 一 般 为 地 点 结合 事件 类 的 层次 结构 相似 
度 计算 。 根据 国土 资源 部 在 2010 年 发 布 的 《县 级 土地 利用 总 体 
规划 编制 规程 》 的 “土地 规划 分 类 及 其 含义 ”"， 提 取 地 点 要 素 实 
体 、 概 念 , 构建 地 点 要 素 本 体 层 次 结构 ， 见 图 4。 地 点 要 素 是 层 


Nl 
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次 结构 ， 相 似 度 计算 按照 式 (8)。 


2.3.4 事 


件 类 对 象 要 素 相 似 度 计算 
事件 类 中 的 对 象 要 素 ， 是 参与 到 
事件 的 施 动 者 、 受 动 者 、 工 具 等 。 两 个 事件 类 的 对 象 要 素 是 两 


中 


事件 中 的 对 象 集合 ， 包 括 


其 中 : 


element 表示 事 


件 类 EC 的 事件 类 要 素 ; element, 表 


示 为 事件 类 EC; 的 事件 类 要 素 ;，Q; 取 值 在 0~1 间 ， 表示 事件 各 
要 素 的 权重 。 本 文 为 了 方便 计算 ， 认 为 要 素 相似 度 重 要 程度 相 


个 集合 ， 可 以 把 对 象 看 做 词语 ， 最 后 构成 的 是 两 个 词语 集合 ， 
事件 数据 资源 时 间 位 置 描述 
ee 二 间 位 置 描述 | ”| 时间 位 置 1 
时 间 坐 标 系 问 是 六 肖 术 间 位 置 2 
公历 时 间 
农历 时 间 
地 质 时 间 
其 他 类 型 寺 间 格式 i 
时 辣 放 加 纪年 天 
十 间 状 态 二 间 方 向 和 
进行 中 于 司 状态 | EN 
己 完 成 时 区 /标准 时 间 条 
将 发 生 寺 间 值 让 
其 他 状态 十 间 粒 度 半生 
其 他 
f/f 
一 时 区 /标准 时 间 年 实 
公元 前 东 一 区 二 表 
距 今 站 
本寺 月 实体 
人 式 治 时 间 
2 
本 网 
图 3 时 间 要 素 的 描述 
2.3.5 事件 类 语言 表现 要 素 相似 度 计 算 
事件 类 中 的 语言 表现 要 素 ， 主 要 体现 在 两 个 方面 : 核心 词 
和 核心 词 搭 配 。 本 文 暂且 不 考虑 核心 词 搭 配 问 题 。 语 言 表现 中 


的 核心 词 构成 了 词语 集合 ,可 以 通过 式 (7) 相 似 度 计 算 公 式 来 计 


算 事件 类 语言 要 素 相似 度 。 


2.3.6 事件 类 要 素 综 合 相 似 度 计算 


假设 事件 类 EC 和 EC,， 两 个 事 伯 


似 度 为 Sim(EC,EC,) ， 计 算 公 式 如 下 : 


Sim 


‘element 


i=1 


和 
(=A,0,T,P,L) 2 ww =1 


i=1 


城镇 用 地 
农村 居民 点 水 田 
家 用 地 耕地 
乡 建设 地 外 信用 地 浇 地 
城乡 建设 地 届时 水 浇 地 
区 独立 建设 地 
地 林地 旱地 
铁路 
人 其 他 设施 用 地 
建 机 场 农村 道路 
地 | | 设 [交通 永利 地 - 耕地 
| 地 各 坑 溪 水 而 
水 库 
田 坎 
水 工 建筑 
风景 名 胜 
其 他 有 水 域 湖泊 水 而 
盐 E 河流 水 面 
其 
他 自然 保留 地 
图 4 地 点 要 素 本 体 局 部 层次 网 络 结构 


S 
(EC, EC,)= > oSim(element, ,element, ) 


类 要 素 相 似 度 为 综合 相 


(10) 


同 ， 取 值 相等 都 为 0.2. 
2.4 事件 类 层次 结构 相似 度 计 算 


在 事件 类 关系 有 分 
co 
巴 事 件 类 看 做 
层次 结构 相似 度 。 


洪 
a 


层次 结构 中 的 节点 ， 采 


类 关系 .. 和 非 分 类 关系 ( Rs ， 
ow )。 对 于 R,_。 关系 ， 即 层次 结构 关 
] 式 (8) 计算 事件 类 


2.5 事件 类 非 层次 结构 相似 度 计 算 
可 件 ( 类 ) 2 间 非 层 次 关 系 候 指 通 过 ( Re ? Rnpositedor 9 
conowrone， Ranov) 四 种 关系 相连 。 假设 每 种 关系 的 重要 程度 相同 。 


本 文 取 一 个 语义 半径 RR， 


山中 


构 相似 度 Sin(ECA,ECn) 为 


Sbonm (ECA, ECs) = 


的 事件 类 的 个 数 ; 
|count(ECS,)| 表 示 ECS 
相似 度 中 语义 半径 


follow 


半径 ， 使 得 P<R 来 选取 周 
ECS, ={EC,,EC,,...EC,,} 。 
P 为 半径 ， 使 得 P<R 来 选取 周围 
合 为 ECS; ={ECy,ECy,...EC,,} ， 习 


follow 


联 民 让 复 


有 件 类 EC 为 中 心 ， 以 路 径 长 度 PP 为 
后 类 。 假 设 得 到 事件 类 集合 为 
事件 类 ECs 为 中 心 ， 以 路 径 长 度 
lE 件 类 。 假 设 得 到 事件 类 集 
Bb 么 两 个 事件 类 的 非 层次 结 


巨 


由 


2x | count(ECS, NECS;)| 
|count(ECS, )| +| count(ECS; )| 


(11) 


其 中 ，|count(ECS ,ECS。)| 表示 既 在 ECS, 又 在 ECS, 中 
|count(ECS,)| 表示 ECS4 中 事件 类 个 数 ; 


FP 事件 类 个 数 。 本 文 计算 非 


is a. < is a 
Se E34 
慌 衣 帮 击 人、 
follow 


层次 结构 


[ew 


catu 


cause 


folow 一 > 
concure > 


follow 


cause 


cause 


concur- concur 
篇 险 公 司 淘 巷 
万 才 所 奖 帮 六 


妈 6 交通 


2.6 事件 类 综合 相似 度 计 


山中 


上 
+ 


袭 居 矿 契 


医 4 沽 所 ”Ytollow( 让 民 交卷 
follow follow. 


基于 上 述 分 析 ， 综 合 考虑 基于 
牛 类 要 素 的 相似 度 、 基 于 
构 的 相似 度 ， 最 后 得 到 综合 相似 


上 事件 类 非 层次 结构 
< 
对 和 4 js a 


is a 


交通 存 豆 
衣 你 理 


cause 


follow 


concur follow 


事故 事件 类 非 层次 结构 
算 


件 类 名 称 的 相似 度 、 
层次 结构 的 相似 度 和 基于 非 
度 计算 公式 如 下 : 


山中 
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Sim(EC,, EC,) = wSim,,.(EC,, EC,) + wSim,, (EC ,EC,)+ 
4 
WsSimene (EC , ECe) + waSim,,,, (EC,, EC,) > w=1 (12) 
i=l 


其 中 : 


name 


Sim 


w; 表示 权 值 ; 
Si (EC,,EC,) 表示 EC 、 


omen (EC, EC;) 表示 EC 、 与 ECs 要 素 综 合 相 似 度 ; 


Slenwe (EC ? EC ) 表 示 EC 演 


相似 度 权 重 上 为 0.4， 事 件 类 非 结 构 相 似 度 权 台 


3 ”案例 分 析 和 实验 结果 


以 《国家 


依据 ， 参 照 《 突 发 公共 卫 和 9 
CEC (Chinese 
料 库 332 篇 语 料 P23 和 新 浪 新 闻 网 上 疏 ] 
层次 结构 ， 如 图 7 所 示 。 把 突 发 事 作 
为 三 个 层次 : 第 一 层 4 大 类 , 第 二 


结构 ， 结 合 


T 


应 的 事件 


磁 撞 枪击、 劫持 人 质 、 恶 意 纵火 
车 祸 、 两 车 追尾 


3.2 实验 结果 分 析 
EC 和 ECs 表示 习 


[选取 两 个 事件 类 来 做 相似 度 计 算 ， 按 


与 EC 名 称 相 似 度 ; 


大 [24] 算 法 进行 比较 ， 如 表 4 所 示 。 文 


献 [24] 算 法 是 在 Resnik 
构 相 似 度 计算 。 该 算法 可 
边 的 权重 分 配 ， 比 Resnik 算法 结果 更 加 ; 
看 述 语言 结构 ， 将 关系 义 原 和 关系 符号 描述 结构 


与 ECs 结构 和 
Simwm(EC。, ECs) 表示 EC 、 与 EC; 非 结构 相似 度 。 
度 权 重 内 为 0.3, 事件 类 要 素 相似 度 权 重 必 为 0.2; 


根据 不 同 本 体 的 结构 进 


Nhl 


法 的 基础 上 增加 了 共享 路 径 的 层次 结 


行 


节点 和 有 向 


Wn 


侍 确 一 点 。 


文献 [24] 通 


是 一 种 改进 的 《 知 网 》 相 似 度 计 


表 4 事件 类 相似 度 计算 实验 数据 


突 发 公共 事件 总 体 应 急 预 案 》 的 习 


本 体 


TT 


本 方法 文献 [20] 


文献 [24] 


事件 流行 病 学 》 中 突 发 事件 的 分 类 


Emergency Corpus ) 吕 


第 四 层 243 个 事件 类 。 


3.1 实例 分 析 

以 恐怖 袭击 事件 类 和 交通 事故 事 伯 
事件 类 六 要 素 见 表 3。 在 领域 专家 的 指导 下 ， 本 文 建立 了 奴 怖 
袭击 事件 类 的 非 层次 结构 ， 如 图 5 所 示 ， 建 立 了 交通 习 
类 非 层次 结构 ， 如 图 6 所 示 。 


7 事件 本 体 中 事件 类 部 分 


层 25 子 类 , 第 三 层 80 小 类 ， 


0.421 0.322 
0.604 0.754 
0.352 0.420 
0.500 0.627 
0.781 0.712 
0.483 0.213 


0322 


0.257 


0.187 


0.200 


0.981 


0.552 


| 


以 发 现 ， 本 文 算法 与 文献 [20] 计 算出 来 的 相似 度 大 体 上 


相似 ， 如 “恐怖 袭击 ”与 
有 件 ” 相 似 度 的 值 很 
度 在 整个 相似 计算 过 程 


山中 


FP 的 权 旦 


“交通 事故 ” “事故 灾难 ”与 “群体 
变 近 。 这 是 因为 两 种 算法 ， 层 次 结构 相 人 
比较 大 。 然 而 在 “流感 ”和 "地 


因为 文献 [20] 只 考虑 层次 结构 相似 


F 类 相似 度 


膏 


度 , 没有 考虑 非 结构 层次 结构 相似 度 。 然而 这 两 种 算法 “地 震 ” 
上 差别 比较 大 。 因 为 文献 [20] 只 


了 层次 结构 信息 ， 没 


类 为 例 进行 分 析 。 两 个 


层次 结构 ， 还 考虑 了 了 
。 比 如 ,“ 地 震 ” 发 生 一 般 会 导致 房屋 


9 用 到 的 《 知 网 》 中 的 语义 信息 ， 
事件 类 要 素 之 间 的 信息 ， 所 以 其 相似 度 计 算出 来 的 
值 没 有 本 算法 高 。 

本 文 算 法 与 文献 [24] 作 比较 ,“ 地 震 ” 和 “海曙 
别 比较 大 ， 因 为 《 知 网 》 中 “地 震 ” 和 “海啸 ”的 义 原 集 
层次 结构 都 很 相似 ， 导 臻 “地 震 ” 和 “ 海 明 
近 于 1。 本 算法 中 除了 考虑 


有 ”相似 度 差 
合 


TT 


以 


者” 相似 值 接 


层次 结构 ， 


攻 塞 湖 等 灾害 ， 而 海啸 不 会 ， 两 者 之 间 
文献 [24] 只 是 准 a 事件 类 7 
打 件 类 的 六 要 素 ， 没 有 考虑 到 事件 类 之 癌 的 非 


和 为 概念 来 处 


了 事件 类 丰富 的 语义 信息 。 所 万 


加 


一 以 


表 3 交通 事故 和 您 怖 柳 击 导 

事件 类 交通 事故 事件 类 

时 间 要 素 历时 间 / 时 区 时 间 

地 点 要 素 公路 

对 象 要 素 车 ， 人 ， 红 绿灯 

动作 要 素 追尾 、 撞 车 

前 置 状态 : 人 和 车 完好 、 道 路 前 置 闪 

交通 良好 


后 置 状 态 : 人 伤 完 、 车 受 ”后 置 几 


损 、 交 通 拥堵 


核心 词 : 碰撞 、 相 撞 、 车 核心 词 


语言 表现 祸 、 追 尾 、 卧 妆 、 和 刹车 、 阅 


红 灯 、 受 伤 等 


从 实验 结果 可 以 看 


比 于 传统 的 本 体 相 似 度 计算 算法 ， 考 虑 更 加 全 卫 


核心 词 搭配 : 炸弹 


8 本 算法 结合 了 《 知 网 》 的 语义 特性 ， 
还 考虑 到 了 事件 类 六 要 素 的 信息 以 及 事件 类 的 非 层 次 结构 ， 相 


证 管 疆 [sl 
NT 算 结 果 不 是 


1， 计算 结果 


事件 ”作为 人 类 知识 的 单元 ， 包 含 丰 富 的 语义 信息 。 本 


do 


ul 


文 提 出 了 事件 本 体 相似 度 方法 , 从 事件 类 名 称 、 事 件 类 六 要 素 、 
事件 类 层次 结构 、 事 件 类 非 层次 结构 讨论 了 事件 类 的 相似 度 计 
算 。 本 方法 相似 度 计算 时 ， 不 仅 考虑 到 基于 “概念 ”的 相似 度 
计算 ， 还 考虑 到 了 ,“ 事 件 类 ”丰富 的 语义 信息 。 在 传统 本 体 层 
次 结构 相似 度 基础 上 ， 增 加 了 “事件 类 ”的 非 层 次 结构 相似 度 
计算 。 这 使 得 计算 结果 更 能 全 面 准 备 地 放映 出 “事件 类 ”之 间 
的 相似 度 。 然 而 ， 也 有 需要 进一步 改善 的 地 方 ， 首 先 实验 过 程 
中 大 量 权重 还 是 根据 经 验 来 确定 的 。 另 外 ， 事 件 类 要 素 相似 度 
计算 过 程 中 需要 详细 标注 的 事件 本 体 。 因 此 ， 下 一 步 将 改进 计 
算 过 程 中 各 种 权重 设 定 的 方法 ， 并 考虑 在 缺少 详细 标注 的 事件 
本 体 计算 相似 度 。 
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